КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 19-71-10056

НазваниеПостроение облака лингвистических открытых связанных данных для языков народов России (модели, методы, приложение)

РуководительИльвовский Дмитрий Алексеевич, Кандидат технических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики", г Москва

Период выполнения при поддержке РНФ 07.2019 - 06.2022 

Конкурс№41 - Конкурс 2019 года «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-514 - Технологии приобретения, представления, обработки и интеграции знаний

Ключевые словаЛингвистические открытые связанные данные, семантическая паутина, представление знаний, онтологии, лексические ресурсы, тезаурус, корпус, фреймнет, разметка семантических ролей

Код ГРНТИ20.23.25


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Целью проекта — создание фрагмента облака Лингвистических открытых связанных данных (Linguistic Linked Open Data, LLOD) для русского языка и других языков народов России. Представление лингвистических ресурсов, предназначенных для решения задач обработки текста на естественном языке, в облаке Лингвистических открытых связанных данных на основе открытых международных стандартов является ключевым научным направлением для работ в ряде областей искусственного интеллекта (компьютерная лингвистика и представление и обработка знаний). Данный подход имеет следующие преимущества: 1. Решение проблемы несовместимости моделей и интероперабельности. 2. Совместное использование нескольких лингвистических ресурсов для решения общей задачи. 3. Совместное использование лингвистических ресурсов вместе с нелингвистическими ресурсами из облака Открытых связанных данных (LOD). Возможность подобного рода совместного использования особенно важна в задачах обработки естественной языка и текстовой аналитики, решение которых требует не только знания о языке, но и фактическое знания о мире, а также связей между языковыми и внеязыковыми объектами. 4. Поддержка мощной инфраструктуры Semantic Web, включающей хранилища триплетов, системы логического вывода, онтологии и т.д. Необходимые лингвистические ресурсы для большинства крупных языков уже интегрированы в облако LLOD. Примерами таких ресурсов является тезаурус WordNet, английская и немецкая версии Викисловаря, FrameNet, VerbNet, англоязычный корпус BROWN, а также некоторые тезаурусы для узкоспециализированных областей (EuroVoc, AgroVoc, TheSoz, Library of Congress Subject Headings). Однако лингвистические ресурсы для русского языка и других языков народов России в облаке LLOD представлены лишь фрагментарно. В связи с этим является актуальной задача создания недостающих лингвистических ресурсов и интеграция имеющихся и вновь созданных ресурсов в облако LLOD. В рамках данного проекта планируется: 1. Интеграция в облако LLOD существующих лингвистических ресурсов для русского языка и языков народов России, таких как: открытый корпус русского языка OpenCorpora, национальный корпус татарского языка «Туган тел», национальный корпус башкирского языка, тезаурус русского языка и лингвистическая онтология РуТез, тезаурус русского языка RuWordNet, грамматические словари для русского и татарского языков, в т.ч. расширенный грамматический словарь Зализняка и Грамматический словарь татарского языка, базы данных татарских глаголов, и других. 2. Разработка новых недостающих лингвистических ресурсов: а) фреймовый ресурс типа FrameNet для русского языка («Русский FrameNet»), б) иерархия топиков, автоматически извлеченная из Википедии; и интеграция разработанных ресурсов в облако LLOD. 3. Связывание существующих и новых ресурсов друг с другом и с ранее опубликованными ресурсами на других языках. 4. Разработка инструментов разметки семантических ролей (SRL) и основанного на нем инструмента для извлечения событий, использующих разработанные лингвистические ресурсы. Для решения этих задач будут разработаны новые модели и методы, учитывающие специфику задействованных ресурсов и языков, но, в то же время, в максимально возможной степени сохраняющие совместимость с общепризнанными международными стандартами. Результаты исследований будут иметь важное значение для современных технологий искусственного интеллекта, таких как семантический поиск, извлечение информации из текста, машинный перевод, многоязычные вопросно-ответные системы и др.

Ожидаемые результаты
Результатом проекта будет построение облака Лингвистических открытых связанных данных для русского языка и некоторых других языков народов России. В данное облако будут интегрированы: 1. Существующие лингвистические ресурсы для русского языка и языков народов России, предназначенные для автоматической обработки текста, в том числе: а) открытый корпус русского языка OpenCorpora, б) национальный корпус татарского языка «Туган тел», в) национальный корпус башкирского языка, г) тезаурус русского языка и лингвистическая онтология РуТез, д) тезаурус русского языка RuWordNet, е) грамматические словари для русского и татарского языков, в т.ч. расширенный грамматический словарь Зализняка и Грамматический словарь татарского языка, ж) базы данных татарских глаголов, в т.ч. TatVerbBank, з) другие лингвистические ресурсы для языков народов России, отобранные на основе степени их готовности в ходе выполнения проекта (наиболее вероятными кандидатами к настоящему моменту являются лингвистические ресурсы для хакасского, марийского и башкирского языков). 2. Созданные в ходе выполнения проекта новые недостающие лингвистические ресурсы, в том числе: а) Фреймовый ресурс типа FrameNet для русского языка («Русский FrameNet»), построенный на основе ресурса FrameBank. Данный ресурс будет содержать синтаксические и семантические фреймы. Семантический фрейм является описанием некоторой абстрактной ситуации, и его роли соответствуют участникам этой ситуации. Например, есть фрейм «Дарение» с ролями «даритель», «получатель», «подарок», и т.д. Семантические фреймы выстроены в сеть в соответствии со стандартами FrameNet. Синтаксический фрейм соответствует модели управления предиката. Он содержит аргументы, их грамматические показатели, а также связь этих аргументов с ролями в семантическом фрейме. Например для глагола «дарить» зависимое слово в дательном падеже выражает роль «получатель», а зависимое слово в винительном падеже выражает роль «подарок». б) Иерархия топиков, автоматически извлеченная из Википедии, сохраняющая свойство транзитивности. Данная иерархия будет дополнять вышеупомянутые ресурсы, т.к. будет содержать не только общую лексику, но и большое число именованных сущностей. Интегрированные ресурсы будут доступны через разрешимые URI'и, SPARQL-точку доступа или скачиваемые файлы. Метаданные ресурсов будут опубликованы на платформе DataHub.io. Будет подана заявка на включения ресурсов в диаграмму облака LLOD (http://linguistic-lod.org/llod-cloud). Данные ресурсы будут связаны с внешними лингвистическими ресурсами из облака LLOD, такими как: BabelNet, WordNet RDF, DBNary и др. Также данные ресурсы будут связаны с внешними нелингвистическими ресурсами из облака LOD, такими как DBpedia. Таким образом, построенное многоязычное облако будет интегрировать в рамках единой модели все основные типы лингвистических ресурсов, необходимых для автоматической обработки текста и будет покрывать основные языковые уровни: семантический, лексический, морфологический, синтаксический и дискурсивный. На базе построенного облака будет разработан новый инструмент для разметки семантических ролей (SRL). Особенность данного инструмента SRL будет состоять в том, что он будет использовать не только данные из лингвистических ресурсов, но и данные из связанных с ними ресурсов облака Открытых связанных данных (LOD). В свою очередь, на основе разработанного инструмента разметки семантических ролей будет разработан новый инструмент извлечения событий многоязычных текстов. Особенность данного инструмента будет состоять в том, что извлекаемые события будут автоматически публиковаться в облаке Открытых связанных данных. Результаты исследований будут иметь важное значение для современных технологий искусственного интеллекта, таких как семантический поиск, извлечение информации из текста, машинный перевод, многоязычные вопросно-ответные системы и др. Построение нового лингвистического облака для русского языка и языков РФ будет иметь также важное теоретическое значение, поскольку позволяют интегрировать разрозненные ресурсы в единое представление, тем самым обеспечивая сохранение и развитие русского языка и языков народов РФ как культурный и образовательный феномен в международном виртуальном пространстве. По результатам исследований будет опубликовано 18 работ, из них 9 в изданиях, индексируемых в базах Web of Science и Scopus; 9 – в изданиях, индексируемых в РИНЦ.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2019 году
I) Разработка моделей представления лингвистических данных в облаке LLOD, интеграция лингвистических ресурсов в облако LLOD на основе разработанных моделей и связывание интегрированных ресурсов друг с другом В первый год выполнения проекта были разработаны модели интеграции лингвистических ресурсов в облако LLOD, осуществлена интеграция и произведено связывание следующих лингвистических ресурсов: 1. Тезаурус русского языка и лингвистическая онтология РуТез; 2. Русский грамматический словарь А.А. Зализняка; 3. Татарский корпусный грамматический словарь (создан исполнителями в ходе выполнения проекта); 4. Тезаурус русского языка RuWordNet; 5. Синтаксический уровень ресурса «Русский FrameNet» (автоматически построен на базе ресурса FrameBank в ходе выполнения проекта); 6. Словарь валентностей татарских глаголов TatVerbBank; 7. Национальный корпус татарского языка «Туган тел»; 8. Открытый корпус русского языка OpenCorpora. Для представления ресурсов была разработана новая многоуровневая онтологическая модель, являющаяся надстройкой над существующими моделями SKOS, OntoLex, LexInfo, ISO-THES, PREMON, MMoOn и PROV, а также развитием модели RuThes Cloud. Тезаурус RuWordNet был интегрирован в облако LLOD как отдельный ресурс на базе онтологии OntoLex и специализированной онтологии WordNet. Ресурс TatVerbBank был представлен на базе собственной онтологии, которая является надстройкой над OntoLex и LexInfo. Представление данного ресурса содержит татарские глаголы и их синтаксические аргументы. Описание аргумента включает его грамматические показатели и семантическую роль. Для представления корпусов «Туган тел» и OpenCorpora была использована онтология NIF. Для разметки морфем татарского корпуса была создана специальная онтология татарских морфем на базе онтологий MMoOn и OLiA и LexInfo. Интегрированные ресурсы доступны в виде разрешимых ссылок, скачиваемых RDF-файлов и SPARQL-точку доступа. Интегрированные в облако LLOD ресурсы опубликованы на платформе RuThes Cloud: http://ruthes.org/. Метаданные размещены на репозитории datahub: https://datahub.ckan.io/dataset/ruthes. II) Создание новых ресурсов В ходе выполнения проекта были созданы новые лингвистические ресурсы «Русский FrameNet» (синтаксический уровень) и татарский корпусный морфологический словарь, а также пополнен существующий ресурс — тезаурус RuWordNet. 1) Русский FrameNet Был создан синтаксический уровень нового ресурса «Русский FrameNet». В соответствии с проектом, «Русский FrameNet» должен содержать синтаксические и семантические фреймы. Семантический фрейм является описанием некоторой абстрактной ситуации, и его роли соответствуют участникам этой ситуации. Например, есть фрейм «Дарение» с ролями «даритель», «получатель», «подарок», и т.д. Семантические фреймы выстроены в сеть в соответствии со стандартами FrameNet. Синтаксический фрейм соответствует модели управления предиката. Он содержит аргументы, их грамматические показатели, а также связь этих аргументов с ролями в семантическом фрейме. Например для глагола «дарить» зависимое слово в дательном падеже выражает роль «получатель», а зависимое слово в винительном падеже выражает роль «подарок». Синтаксический уровень был построен автоматически на базе фреймового ресурса FrameBank. Этот уровень содержит предикаты и связанные с ними семантические фреймы. Семантические фреймы, в свою очередь содержит аргументы предиката. Семантические фреймы были построены на базе конструкций FrameBank, а аргументы — на базе элементов конструкций. Для представления «Русского FrameNet» была разработана специальная онтология, которая является надстройкой над PREMON, OntoLex и LexInfo. 2) Татарский корпусный грамматический словарь Был разработан новый лингвистический ресурс — татарский корпусный грамматический словарь. Этот словарь содержит татарские существительные и их формы в разных падежах и числах. Словарь был автоматически извлечен из национального корпуса татарского языка «Туган Тел». 3) Расширение RuWordNet Была автоматически расширена иерархия синсетов тезауруса RuWordNet. Для этого был разработан новый комбинированный подход к задаче извлечения гиперонимов. Подход основан на методах дистрибутивной семантики, шаблонах на основе правил, учете именованных сущностей и нейросетевой модели BERT. Синонимы были извлечены из текстовой коллекции, предоставленной организаторами тестирования RUSSE-2020. III) Использование ресурсов LLOD в задачах обработки естественного языка Были разработаны два новых метода для решения задач обработки естественного языка, базирующихся на ресурсах из построенного облака LLOD: метод разметки семантических ролей и метод разрешения лексической многозначности. 1) Инструменты разметки семантических ролей Была разработана модель разметки семантических ролей для русского языка. Модель основана на нейронной сети с тремя полносвязными слоями. Для разработанной модели были исследованы двенадцать русскоязычных моделей векторных представлений слов, обученных с помощью различных алгоритмов: word2vec, fastText и ELMo. Проведенные на корпусе FramBank эксперименты показали, что модель с векторами ELMo, обученная на новостном параллельном корпусе WMT News, показала наилучшие результаты среди остальных векторных представлений слов. Данная модель превзошла результаты лучшей существующей модели, основанной на векторах ELMo, обученных на текстах Википедии, на 3.8% микро F1. Был разработан метод на основе техники переноса знаний обученных моделей (transfer learning) с использованием межъязыковых векторных представлений слов для разметки семантических ролей на русском языке. Разработанная модель основана на нейронной сети с тремя полносвязными слоями. Оценка модели проводилась на корпусе FrameBank. Модель предобучалась на англоязычном корпусе FrameNet в двух вариантах: на полном корпусе FrameNet, включающем все роли корпуса и на сокращенном корпусе, который включал в себя только те роли, которые присутствуют в корпусе FrameBank. Была исследована эффективность четырех межъязыковых моделей векторного представления слов: BERT; BERT-context, вектора извлеченные с учетом контекста; XLM-R; MUSE; LASER. Было показано, что предобучение на полном на полном корпусе FrameNet повышает метрику полноты и F-меры, но при этом понижают метрику точности, в то время как сокращение количества примеров FrameNet улучшает результаты только для моделей с векторами BERT-context. 2) Метод разрешения лексической многозначности На базе тезауруса RuWordNet был разработан новый метод разрешения лексической многозначности. Разработанный метод основан на специально созданной обучающей коллекции. Для создания коллекции был реализован подход для автоматического сбора и разметки обучающих данных с помощью близких по смыслу однозначных слов (однозначных «родственников») для модели разрешения неоднозначности. Для того чтобы оценить собранные обучающие коллекции, был применен kNN-классификатор к контекстуализированным представлениям целевых слов и было измерено качество его предсказаний на тестовом датасете RUSSE-RuWordNet. Также был изучен потенциал различных контекстуализированных представлений для решения задачи разрешения неоднозначности. Наилучший результат, полученный на модели RusVectōrēs ELMo, составил 0.857. IV) Публикации За первый год проекта было подготовлено 8 публикаций, из них 5 — в изданиях, индексируемых в Scopus и 3 — в изданиях, входящих в РИНЦ.

 

Публикации

1. Большина А.С., Лукашевич Н.В. Generating Training Data for Word Sense Disambiguation in Russian Computational Linguistics and Intellectual Technologies: papers from the Annual conference “Dialogue”, - (год публикации - 2020)

2. Кадермятова Л.М., Тутубалина Е.В. Анализ моделей векторных представлений слов в задаче разметки семантических ролей в русскоязычных текстах Электронные библиотеки, - (год публикации - 2020)

3. Кириллович А.В., Галиева А.М., Невзорова О.А., Шаехов М.Р., Лукашевич Н.В., Ильвовский Д.В. Tatar WordNet: the Sources and the Component Parts Communications in Computer and Information Science, - (год публикации - 2020)

4. Кириллович А.В., Невзорова О.А., Фалилеева М.В., Липачев Е.К.. Шакирова Л.Р. OntoMathEdu: Towards an Educational Mathematical Ontology CEUR Workshop Proceedings, - (год публикации - 2020)

5. Мухамедшин Д.Р., Невзорова О.А., Кириллович А.В. Using FLOSS for Storing, Processing and Linking Corpus Data IFIP Advances in Information and Communication Technology, Damir Mukhamedshin, Olga Nevzorova, Alexander Kirillovich. Using FLOSS for Storing, Processing and Linking Corpus Data // Open Source Systems. IFIP Advances in Information and Communication Technology, vol 582. Springer, 2020. Pp. 177-182 (год публикации - 2020) https://doi.org/10.1007/978-3-030-47240-5_17

6. Невзорова О.А. Методы и алгоритмы повышения выразительности связанных данных (обзор) Электронные библиотеки, - (год публикации - 2020)

7. Николаев К.С., Кириллович А.В. Инструмент навигации по облаку Лингвистических открытых связанных данных для русского языка и языков народов России ИТНОУ: информационные технологии в науке, образовании и управлении, - (год публикации - 2020)

8. Тихомиров М. М., Лукашевич Н. В., Пархоменко Е. А. Combined Approach to Hypernym Detection for Thesaurus Enrichment Computational Linguistics and Intellectual Technologies: papers from the Annual conference “Dialogue”, - (год публикации - 2020)


Аннотация результатов, полученных в 2020 году
Во второй год выполнения проекта были получены следующие результаты: 1) Создание новых лингвистических ресурсов: 1. TatWordNet, ворднет для татарского языка Был разработан и опубликован первый релиз лингвистического ресурса TatWordNet (http://wordnet.tatar) — ворднета для татарского языка. Разработанный ресурс содержит: 18 538 синсетов, 36 540 лексических единиц, 49 525 лексических смыслов, 24 740 отношений гипоним/гипероним, 1336 отношений мероним/холоним, 15 964 доменных отношений, 3 661 связей с концептами из Кросс-языкового индекса (inter-lingual index). TatWordNet полностью интегрирован в облако Лингвистических открытых связанных (LLOD) данных и связан с другими ресурсами из облака LLOD, в том числе Global WordNet Grid, RuThes Cloud, открытый корпус русского языка OpenCorpora и др. Интеграция ресурса в облако LLOD позволяет строить комлексные многоязычные федеративные запросы. Примером такого запроса является: для заданного татарского слова «шəһəр» («город») найти в русском корпусе OpenCorpora предложения, в которых встречаются русские слова, татарские переводы которых являются гипонимами данного татарского слова. Данный запрос использует следующие ссылки: (1) между русским корпусом OpenCorpora и русским тезаурусом RuThes; (2) межязыковые ссылки между русским тезаурусом RuThes и татарским ворднетом TatWordNet; (3) и, наконец, ссылки гипоним-гипероним между синсетами TatWordNet. Запрос возвращает 113 предложений, например, «Российскую __столицу__ впервые посетил известнейший художник-визионёр Алекс Грей». TatWordNet доступен через: a. разрешимые ссылки: http://lod.wordnet.tatar; b. SPARQL-точку доступа: http://lod.wordnet.tatar/sparql; c. скачиваемый RDF-файл: http://wordnet.tatar/download/twn.ttl.zip. 2. Русский FrameNet (семантический уровень) Была построена первая версия семантического уровня нового разрабатываемого ресурса «Русский FrameNet». В соответствии с проектом, семантический уровень, был построен автоматически на основе коллекции независимых от языка фреймов англоязычного ресурса FrameNet. Для построения семантического уровня, было автоматически осуществлено связывание фреймов английского ресурса FrameNet (FN) с конструкциями русского FrameBank (FB), а также роли фреймов FN с элементами конструкций FB. Связи между синтаксическим и семантическим уровнем были представлены в формате Открытых связанных данных и доступны по адресу: http://ruthes.org/download/ruframenet-mappings.zip. 3. Многоязычной корпус исторических документов Была начата работа над созданием многоязычного корпуса исторических документов. Для корпуса были отобраны документы на русском, английском языках, испанском, немецком и французском языках. Документы были представлены в LOD-совместимом формате на основе онтологии NIF (но без морфологической разметки). Полученное представление было частично интегрировано в LOD-версию корпуса OpenCorpora, которая была построена в предыдущий год выполнения проекта. Предполагается, что в следующем году выполнения проекта расширенная версия корпуса будет использоваться для тестирования инструмента извлечения событий. 4. Иерархия топиков, сохраняющая свойство транзитивности Был адаптирован метод извлечения транзитивных цепочек из системы категорий Википедии. Адаптированный метод направлен на решение проблемы транзитивности в этой системе. Проблема транзитивности состоит в следующем: страница из сложенной подкатегории некоторой категории может быть не релевантной этой родительской категории. Задача метода состоит в нахождении и устранении из системы категорий нетранзитивных цепочек. Адаптированный метод построен на основе анализа отношения предметность (aboutness). Предметность — это отношение с между предложением или документом и его темой. Было формально доказано, что если тема, связанная с концептом A является подтемой темы, связанной с концептом B, то концепт A онтологически зависит от концепта B. На базе адаптированного метода был автоматически построен тестовый фрагмент иерархии топиков. Тестовый фрагмент был представлен в формате Открытых связанных данных (LOD) и доступен по адресу: http://ruthes.org/download/topics-hierarchy-transitive-sample.n3.zip. 2) Доработка уже интегрированных ресурсов в облако LLOD ресурсов 1. Национальный корпус татарского языка «Tugan Tel» Была построена и интегрирована в облако LLOD морфемная разметка национального корпуса татарского языка «Tugan Tel». Данная разметка содержит аннотации отдельных алломорфов, входящих в состав слов-токенов. Алломорфы снабжены грамматическими показателями той морфемы, которую выражает тот или иной алломорф. Морфемная разметка была построена на основе специальной разработанного лексикона татарских морфем. Построенная морфемная разметка была интегрирована в облако LLOD. Для представления морфемной разметки в облаке LLOD была разработана специальная онтологическая модель, которая является надстройкой над существующей онтологией NIF. Данная модель позволяет выделять в корпусе отдельные морфемы (класс tugantel:Morph) и снабжать их морфологическими показателями. Кроме того, разработанная модель содержит теги для морфологических аннотаций. Теги связаны с онтологией OLiA, которая, в свою очередь связана с регистром IsoCat. Насколько нам известно, корпус «Tugan Tel» стал первым корпусом, интегрированным в LLOD, который содержит морфемную разметку. Новая версия LLOD-представления корпуса «Tugan Tel», содержащая морфемную разметку, доступна по адресу: http://ruthes.org/download/tugan-tel-2.zip. 3) Онтологическая мета-модель для облака LLOD Была разработана онтологическая мета-модель, интегрирующая онтологии NIF, OntoLex/Lemon Core, OntoLex/Lemon SynSem, PreMOn и LexInfo. Разработанная мета-модель решает две основные проблемы: (1) интеграция разрозненных онтологий, используемых для представления лингвистических ресурсов в облаке LLOD; (2) формализация семантики концептов и отношений этих онтологий. Разработанная мета-модель основывается на разделении элементов этих онтологий на онтологические уровни: токены, типы первого порядка, типы второго порядка и т.д. Токены являются экземплярами типов первого порядка, токены первого порядка являются экземплярами второго порядка и т.д. Затем модель интерпретирует концепты более высокого уровня через более концепты низкого уровня. 4) Доработка инструментов NLP с использованием ресурсов из облака LLOD 1. Доработка инструмента разметки семантических ролей (SRL): a.Реализованы модификации архитектуры нейронной сети для задачи разметки семантических ролей, разработанной в первый год работы над проектом. b. Проведены исследования по выявлению наиболее эффективного способа объединения полученных на выходе первых трех слоев векторов аргумента, предиката и признаков, извлеченных из текста. c. Получены результаты экспериментов, проведенных на корпусе FrameBank. Исходная базовая архитектура нейронной сети, в которой векторы аргументов, предикатов и признаков конкатенировались, показала следующие 81% метрики точности. Среди исследованных моделей наиболее высокие результаты были получены моделью Mult - 81.8%, что на 0.8% больше базовой модели. Модификации Sum, CNN и LSTM не привели к приросту результатов: 80.4%, 79.5% и 80.9% по метрике точности, соответственно. 2. Доработка инструмента выделения парафраз: a.Разработаны модели нейронных сетей с интегрированными признаками на основе семантических ролей и проведены исследования эффективности интегрированных признаков в задаче распознавания парафраз. b.Рассмотрены следующие архитектуры нейронных сетей: BiLSTM, DA-BiLSTM, Att-BiLSTM, CNN, DA-CNN и Att-CNN c.Проведены эксперименты на корпусах ParaPhraser, состоящем из заголовков новостных статей, и Quora Question Pairs Russian (QQPR), состоящем из пар вопросов, собранных с форума Quora. d. Сделаны следующие выводы: (i) добавление признаков на основе семантических ролей повышают результаты большинства рассматриваемых моделей; (ii) наибольший прирост метрики точности при добавлении признаков на обоих корпусах показывает модель BiLSTM. 5) Адаптация RDF-браузера LodView для навигации по русскоязычному облаку LLOD Был разработан интерфейс для распределенной лингвистической базы данных. Для построения пользовательского интерфейса был использован хорошо известный RDF-браузер LodView. Однако, LodView обладает рядом ограничений, которые препятствуют его использованию для навигации по разработанной базе данных. Для устранения этих ограничений был осуществлен ряд доработок данного инструмента: 1. Разрешение кириллических URI'ев; 2. Раскодирование кириллических URI'ев в Turtle-предсталвении ресурсов; 3. Поддержка кириллических литералов; 4. Поддержка удобных для человека URI'ев для RDF-представления ресурсов; 5. Поддержка URI с ID фрагмента; 6. Раскрытие вложенных ресурсов; 7. Корректное размещение blank nodes. Доработанная версия доступна на репозитории GitHub: https://github.com/ManlyMan1/ LodView_Cyrillic. 6) Публикации Во второй год выполнения проекта было опубликовано 9 статей в изданиях, индексируемых в базах Scopus/WoS (среди них одна статья в журнале, входящем в Q2, и одна статья в сборнике из серии, также входящей в Q2).

 

Публикации

1. Алимова И.С., Тутубалина Е.В., Кириллович А.В. Cross-lingual Transfer Learning for Semantic Role Labeling in Russian Proceedings of the 4th International Conference on Computational Linguistics in Bulgaria (CLIB 2020), Sofia, Bulgaria, 25-26 June 2020, I. Alimova, E. Tutubalina, and A. Kirillovich. Cross-lingual Transfer Learning for Semantic Role Labeling in Russian. In: Proceedings of the 4th International Conference on Computational Linguistics in Bulgaria (CLIB 2020). BAS, 2020. Pp. 72-80 (год публикации - 2020)

2. Большина А.С., Лукашевич Н.В. Comparison of Genres in Word Sense Disambiguation using Automatically Generated Text Collections Proceedings of the 4th International Conference on Computational Linguistics in Bulgaria (CLIB 2020), Sofia, Bulgaria, 25-26 June 2020, A. Bolshina, N. Loukachevitch. Comparison of Genres in Word Sense Disambiguation using Automatically Generated Text Collections. Proceedings of the 4th International Conference on Computational Linguistics in Bulgaria (CLIB 2020). BAS, 2020. Pp. 156-165 (год публикации - 2020)

3. Большина А.С., Лукашевич Н.В. All-words Word Sense Disambiguation for Russian Using Automatically Generated Text Collection Cybernetics and Information Technologies, A. Bolshina, N. Loukachevitch. All-words Word Sense Disambiguation for Russian Using Automatically Generated Text Collection. Cybernetics and Information Technologies 20(4), 2020 (год публикации - 2020) https://doi.org/10.2478/cait-2020-0049

4. Гатиатуллин А.Р., Кириллович А.В., Невзорова О.А. On developing of the FrameNet-like resource for Tatar Supplementary Proceedings of the XXII International Conference on Data Analytics and Management in Data Intensive Domains (DAMDID/RCDL 2020), A. Gatiatullin, A. Kirillovich, O. Nevzorova. On Developing of the FrameNet-Like Resource for Tatar. Proceedings of the XXII International Conference on Data Analytics and Management in Data Intensive Domains (DAMDID/RCDL 2020). CEUR-WS, 2020 (год публикации - 2020)

5. Ильвовский Д.А., Галицкий Б.А. Dialogue management using extended discourse trees Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2020”, volume 19(26), pp. 361-371 (год публикации - 2020) https://doi.org/10.28995/2075-7182-2020-19-361-371

6. Ильвовский Д.А., Кириллович А.В., Галицкий Б.А. Controlling Chat Bot Multi-Document Navigation with the Extended Discourse Trees Proceedings of the 4th International Conference on Computational Linguistics in Bulgaria (CLIB 2020), Sofia, Bulgaria, 25-26 June 2020, D. Ilvovsky, A. Kirillovich, B. Galitsky. Controlling Chat Bot Multi-Document Navigation with the Extended Discourse Trees // Proceedings of the 4th International Conference on Computational Linguistics in Bulgaria (CLIB 2020). BAS, 2020. Pp. 63-71 (год публикации - 2020)

7. Кириллович А.В,, Невзорова О.А., Фалилеева М.В., Липачев Е.К., Шакирова Л.Р. OntoMathEdu: A Linguistically Grounded Educational Mathematical Ontology Lecture Notes in Artificial Intelligence, A. Kirillovich, et al. OntoMathEdu: A Linguistically Grounded Educational Mathematical Ontology. In: Proceedings of the 13th International Conference on Intelligent Computer Mathematics (CICM 2020). LNAI, vol. 12236. Springer, 2020. Pp. 157-172 (год публикации - 2020) https://doi.org/10.1007/978-3-030-53518-6_10

8. Кириллович А.В., Шаехов М.Р., Галиева А.М., Невзорова О.А., Ильвовский Д.В., Лукашевич Н.В. TatWordNet: a Linked Open Data-integrated WordNet Resource for Tatar Proceedings of the 3rd biennial conference on Language, Data and Knowledge (LDK 2021), Zaragoza, Spain, 1-3 September 2021, - (год публикации - 2021)

9. Николаев К.С., Кириллович А.В. Adapting the LodView RDF Browser for Navigation over the Linguistic Linked Open Data Cloud in Russian and the Languages of Russia Supplementary Proceedings of the XXII International Conference on Data Analytics and Management in Data Intensive Domains (DAMDID/RCDL 2020), CEUR Workshop Proceedings, vol. 2790. CEUR-WS, 2020. Pp. 350-361 (год публикации - 2020)


Аннотация результатов, полученных в 2021 году
1-2) Создание новых лингвистических ресурсов и их интеграция в облако LLOD В третий год выполнения проекта были разработаны следующие лингвистические ресурсы: 1. Семантический уровень «Русского FrameNet» a. Осуществлено ручное связывание фреймов FN с ключевыми конструкциями FB. Объем построенной коллекции составляет 679 глаголов (из 1723), 1305 групп конструкций (из 7876) и 6399 конструкции (из 17 061). b. Разработана новая версия метода для автоматического связывания конструкций с фреймами. В новой версии использовалась мультиязычная модель LOME для разметки фреймов, которые работали с исходными текстами на русском языке. С помощью данной модели было размечено 1958 предложений из корпуса FrameBank. В качестве эталонной разметки были использованы примеры, размеченные лингвистами в рамках работ по данному гранту. Качество сопоставления фреймов составила - 42% F-меры для фреймов, у которых однозначно определены фреймы и 34% F-меры для неоднозначно определенных фреймов. c. Разработан метод для связывания ролей FN с элементами конструкций FB. Общая идея метода состоит в том, чтобы для каждого экземпляра FB-роли посмотреть какой ролью размечен английский перевод этого экземпляра. Та FN-роль, которой размечено большинство таких экземпляров и объявляется эквивалентной для исходной FB-роли. Семантический уровень ресурса опубликован на платформе RuThes Cloud (http://ruthes.org) и доступен через SPARQL-точку доступа и через скачиваемый файл по адресу: http://ruthes.org/download/. 2. Разработка нового ресурса для башкирского языка BashVerbBank и его интеграция в облако LLOD Был разработан новый экспериментальный фреймовый ресурс для башкирского языка BashVerbBank. Архитектура данного ресурса основывается на архитектуре разработанного ранее ресурса RuFrameNet. BashVerbBank состоит из семантических и синтаксических фреймов. Объем ресурса составляет 218 глаголов, 154 семантических фрейма и 164 синтаксических фрейма. Ресурс опубликован на платформе RuThes Cloud (http://ruthes.org) и доступен через SPARQL-точку доступа и через скачиваемый файл по адресу: http://ruthes.org/download/bvb.zip. 3) Было осуществлено ручное связывание ресурсов TatVerbBank и BashVerbBank с семантическими фреймами рерсурса FrameNet. 4) Обогащение существующих лингвистических ресурсов [§4] 1. Была осуществлена смысловая разметка открытого корпуса русского языка OpenCorpora, где в качестве смыслов использовались синсеты тезауруса RuWordNet (RWN). Объем размеченной коллекции составляет 807 документов, 6751 предложение, 109 893 токена, из которых 50 363 токена были связаны с синсетами RWN. Смысловая разметка была использована в качестве тестовой коллекции для оценки методов разрешения лексической многозначности для русского языка (см. п. 6-7.2 данного отчета). Таблица со связями доступна по адресу: http://ruthes.org/download/opencorpora-rwn.zip. 2. Была осуществлена словообразовательной разметка для национального корпуса татарского языка «Tugan Tel». Для представления словообразовательной разметки был выбран следующий формат. Представление слова из корпуса имеет вложенную рекурсивную структуру. В соответствии с этим представлением, производное слово состоит из исходного слова, за которым идет словообразовательный аффикс, за которым опционально идет последовательность словоизменительных аффиксов. Непроизводное слово состоит из корня и опционально словоизменительных аффиксов. Также структура содержит сведения о части речи слова. В качестве исходных данных для разметки выступает морфемная разметка корпуса «Tugan Tel». Разметка каждого слова состоит из корневой морфемы, части речи этой морфемы и последовательности морфем, следующих за корнем. Для осуществления разметки используется расширенная база морфмем. Эта база является расширением базы морфем, построенной на предыдущем этапе выполнения проекта. Расширенная морфмемная база доступна по адресу: http://ruthes.org/download/tatmorph.zip. 3. Была пересобрана иерарзия синсетов тезауруса тезауруса татарского языка TatWordNet. Благодаря этому, ресурс был пополнен синсетами-глаголами и синсетами-прилагательными, а его структура отражает лексическую структуру татарского языка, а не повторяет структуру исходного ресурса. Новая версия тезауруса TatWordNet содержит 29 296 синсетов-существительных, 7 519 синсетов-глаголов и 12 896 синсетов-прилагательных. Новая версия TatWordNet доступна через: a. разрешимые ссылки: http://lod.wordnet.tatar; b. SPARQL-точку доступа: http://lod.wordnet.tatar/sparql; c. скачиваемый RDF-файл: http://wordnet.tatar/download/twn.ttl.zip. 5) Была осуществлена формализация мета-модели для облака LLOD, построенной в предыдущий год выполнения проекта. Формализация была построена на базе межуровневых следующих отношений, определенных в формальной теории Multi-level Modeling (MLM): 1. iof (инстанциация); 2. specializes (специализация); 3. categorizes (категоризация); 4. partitions (lеление); 5. subordinates (подчинение). 6-7) Методы обработки естественного языка, основанные на созданных ресурсах [§6-7] На базе созданных лингвистических ресурсов были разработаны и протестированы следующие методы и инструменты обработки текста на естественном языке: Разработаны модели нейронных сетей на основе современных языковых моделей с интегрированными признаками на основе семантических ролей и проведены исследования эффективности интегрированных признаков в задачах: (1) распознавания парафраз (2) поиск ответа на вопрос. В обеих задачах была исследована модель RuBERT, основанная на архитектуре Трансформер. Получены следующие результаты в рамках экспериментов по сравниванию результатов моделей с семантическими признаками и без них: (1) Для задачи распознавания парафраз модель без дополнительных признаков показала 65% точности, в то время, как модель с дополнительными семантическими признаками - 66%. (2) Для задачи поиска ответа на вопрос обе модели показали одинаковое качество 79% метрики jaccard. 2. Методы разрешения лексической многозначности (WSD) для русского языка Были реализованы и протестированы два метода разрешения лексической многозначности (WSD) для русского языка: Personalizing PageRank (PPR) и метод псевдо-разметки. Для тестирования данных методов была использована разработанная ранее смысловая разметка корпуса OpenCorpora. Метод PPR был протестирован на смысловой разметка корпуса OpenCorpora. Точность базовой конфигурации PPR составляет 67.4%. При оптимизации гиперпараметров точность составила 74.3%. Метод псевдо-разметки позволяет автоматически создать размеченную текстовую коллекцию и использовать ее в качестве обучающего множества для методов WSD, основанных на машинном обучении. Реализованный метод был протестирован на смысловой разметка корпуса OpenCorpora. Точность метода составила 74.1%. 6-7) Была разработана онтология представления событий и основанный на ней инструмент излечения событий из текста. Онтология для представления событий была построена автоматически на основе разработанного ресурса «Русский FrameNet». Инструмент излечения событий из текста принимает на вход текст, размеченный семантическими ролями ресурса FrameBank (в формате CoNLL). Разметка осуществляется с помощью модифицированного метода Шелманова, разработанного в предыдущий год выполнения проекта. Инструмент преобразует размеченный текст в LOD-интегрированный набор данных.

 

Публикации

1. - Using FLOSS for Storing, Processing and Linking Corpus Data -, - (год публикации - )

2. Злочевская Д.И., Лукашевич Н.В., Невзорова О.А. Linking Russian Words to Semantic Frames of FrameNet Открытые семантические технологии проектирования интеллектуальных систем (OSTIS-2021). БГИУР, Минск, 2021, Открытые семантические технологии проектирования интеллектуальных систем (OSTIS-2021). БГИУР, Минск, 2021 (год публикации - 2021)

3. Кириллович А.В., Николаев К.С. Adapting the LodView RDF Browser for Navigation over the multilingual Linguistic Linked Open Data Cloud Proceedings of the 9th IEEE International Conference (SETIT 2022), Genova, Italy & Sfax, Tunisia, 28-30 May 2022, - (год публикации - 2022)

4. Лукашевич Н.В., Невзорова О.А., Злочевская Д.И. Linking FrameNet to Russian Resources Vladimir Golenkov, et al (eds). Revised Selected Papers of the 11th International Conference on Open Semantic Technologies for Intelligent System (OSTIS 2021). Communications in Computer and Information Science. Springer, 2022, - (год публикации - 2022)


Возможность практического использования результатов
не указано